对话声网 RTE 创新大赛三强:新一代全球化创业者在思考什么?
超音速计划国内年度八强和海外地区 Startup Battlefield 四支获胜团队,一共 12 支团队在声网 RTE2023 实时互联网大会活动上路演角逐,最终评选出三强团队:舞指科技、萤火空间和 Kivisense弥知科技。
最终评选出的三强创业团队,或起源于海外,或早早谈下大量国际客户,或已经开拓了多个国际市场。借用赛前炉边谈话中,五源资本合伙人刘凯的一句话:新一代的科技创业公司,从第一天起就必须是全球化的公司。
生而全球化、选择全球化,都注定会让这些创业公司与过去十多年移动互联网时代的主流有所不同。
新一代全球化创业者的不同在哪里?
三强创业团队,舞指科技选择切入公益赛道、萤火空间花五年时间建立技术壁垒、弥知科技从一开始就做好了自己造血的规划,Founder Park 与他们进行了访谈交流。希望能从他们身上,看到未来 10 年创业者身上的一些特质。
舞指科技
瞄准特殊人群的 AI 创业,并不如想象中美好
舞指科技:专注于生物电信号神经接口领域的人工智能企业,通过便携式的智能传感肌电部件,结合机器学习的算法识别人体表面肌肉电信号,可以检测手部微小动作,达到利用手势控制智能设备,拓展人类能力边界的目的。目前推出了面向聋人的手语翻译产品。
以下是 Founder Park 与舞指科技创始人 & CEO 曾振的对话。
Founder Park:创业过程中最被外界挑战的点是什么?会不会有人质疑你们的项目很有情怀,但是商业化潜力一般?
曾振:经常有类似的反馈。虽然是解决特定群体的问题,但我们也希望不管是从技术本身还是群体的需求来说,挖掘到商业价值,给投资人带来回报。今年随着大模型的流行,大家看到了这样的产品的商业价值的可能性,我们面对的质疑也少了很多。
Founder Park:你觉得类似公益项目被质疑的原因是什么?本质不都是满足需求创造价值吗?
曾振:这些年很多做公益或者偏社会性质的项目,都会被质疑商业化的前景,但也出现了不少专门去投资类似企业的投资机构,算是相互匹配吧。
我觉得对于这种项目的看法其实是某种形式的偏见,很多项目宣称面向全量人群,但其实都是伪命题,不可能每个项目都是面向全量人群。可能从商业角度来说,一开始就划定某个特定群体,就会自然而然觉得这个群体可能付费能力弱,会觉得跟那些面向企业的相比,没有那么容易商业化。
但归根结底还是要回到市场,用数据说话,回归商业的本质。有时候市场反而是做公益最好的一种手段。我们只要正常去做商业,去解决某些群体的需求和问题就可以了。
Founder Park:创业这一路走过来,都遇到了哪些挑战?
曾振:主要有两个方面。
第一个是技术方面,把语音识别的问题想得太简单了。以为直接把讯飞的相关服务直接复用就可以,结果发现根本不是那么回事,我们根本没有相关数据。就要想各种办法,一方面造数据、生成数据,同时还要自己采数据。
其次是硬件方面,当时觉得全球化嘛,我们只要做好自己的算法,硬件从各地采购就可以了。结果就被当头一棒,2018 年就有一个硬件供应商停产,但想彻底解决类似的问题,不只是技术上,商业各方面都需要考虑周全,也不是重新找个组装厂就能解决的。
一开始花了几百万做的数据手套的方案,虽然实验效果很好,但使用的时候就发现不实用;后来又尝试生物电信号采集数据,结果遇上了设备断供,今年就决定放弃这套方案,直接改用计算机视觉捕捉。好在今年大模型和计算机视觉都有突破,目前来看效果还可以。
Founder Park:那你们最早是如何评估自己的优势的?
曾振:一个出发点是我们觉得自己做算法还可以,发了不少论文,在一些相关领域的小应用做的蛮得心应手。
另外就是,我们在 16、17 年就跟中国残联有联系,他们那边有人想做类似的事情。
技术上有积累,觉得有数据就可以做,然后确实又存在市场需求,就决定做了。
Founder Park:后期你们是如何解决数据的问题的?
曾振:没什么捷径可走,一开始尝试过各种模型自动生成,后来发现没有足够的基础数据的话,生成的内容都是噪声。所以一开始在用硬件的时候基于硬件做数据采集,找聋人录制,后期做语句翻译的时候找手语老师和翻译老师进行录制。在场景数据积累到一定量之后,剩下的数据可以尝试用大模型去生成。但这个要在我们覆盖到足够多的特征数据之后才会交给算法。
Founder Park:大模型技术发展起来后,对于你们的影响是怎么样的?包括技术和产品形态等。
曾振:手语翻译的内容上,是纯软件部分,部署会比较统一。
手语翻译的形态,目前我们是采用的视觉方案,但是当数据量和技术达到一定程度后,可能最终还是可以回到边缘端设备,比如不少聋人一直期待的手环形态等,现在大模型也越来越轻量化,在数据量足够大之后,边缘端设备是可以满足需求的。这样的话我们的产品形态可能从视觉设备回到穿戴设备。
Founder Park:服务会继续往更深的方向做吗,比如满足这个人群其他的需求等?
曾振:未来自然语言可能会成为主要的交互方式,对于聋人来说,手语是代替自然语言进行人机交互的主要方式,那么我们的产品可能就不单单提供手语翻译服务,而是成为他们和人工智能交流时的入口和基础设施。
这是我们希望最终能做的。
Founder Park:在商业化上,你们对于 toB、toG、toC 是怎么考虑的?
曾振:B 端和 G 端其实会更好做一些,手语字幕和无障碍信息,都是可以按照国家统一标准去做,聋人都能看懂。但是 C 端就更复杂些,存在不同的用户方言等,挑战更大,对于我们来说,工作量呈倍数的增长。但之后如果往深了做,除了翻译外,提供多轮对话、人机对话等,作为个人的生活助手是我们想做的。
之前的愿景是类似手语版讯飞或者聋人版的小爱同学,在大模型出后我们想成为聋人的 GPT-4。
Founder Park:全球其他地区,C 端的付费意愿会有明显不同吗?
曾振:我们之前和新加坡政府合作,那边的付费能力是要比国内高不少的。随着国家对于无障碍基础设施的支持力度越来越高,消费的需求也会慢慢增长起来。
萤火空间
五年研发建立技术壁垒,「创业就是在赌命」
萤火空间 2017 年年底成立,是一家 MR 企业全场景协作平台,推出自主研发的大视角、高性能空间计算混合现实一体机硬件以及 MR 远程协作、无代码编辑器等标准化软件,帮助工业企业在高价值设备的跨地点运维中提供高效、即时的技术协作和支持,并且可以无需代码,无需 3D 建模,拖拽式基于实际设备生成 3D 环绕的培训、巡检、展览展示场景。产品针对电网、职高校实训课程、高端装备制造、通讯、能源设施设备等领域。
以下是 Founder Park 与萤火空间创始人 & CTO 邵鹏的对话。
Founder Park:为什么选择做工业级 MR 领域?
邵鹏:12 年的时候创办了一家公司,做滑雪场景的 AR 模块,消费级产品。当时卖到了 30 多个国家,但越到后来越发现:
第一,整体市场规模比较小;
第二,消费者普遍预期较高,14、15 年,欧美很多 AR 眼镜公司宣传比较夸张,产品效果远远达不到,但提高了消费者对这类产品的预期。并且该预期在 10 年之内技术都不可能实现。
所以我们仔细想了市场定位的问题,做了 4 个月的市场调研,花了很长时间,调查了消费级、企业级和工业级对这类产品(AR、MR)的需求和期待。
我们发现,工业和企业级对 MR 的痛点和需求非常明确,比如远程协作、培训、展览展示等等。于是我们决定从消费级滑雪市场转向到工业企业的目标客户群体。
以技术和产品力为核心的公司,都有个共同的特点,每家公司都不会去重复别人做过的事情,我们一定要有一些自己的「小骄傲」在里面,有一些核心、独有的技术和产品。
凭借那几年我们在行业里的积累,包括光学、定位算法、传感器融合的算法等等,我们决定在光学和空间计算方面,尝试突破一些当时的技术瓶颈,这是成立公司时最初的想法。
Founder Park:从 2017 年创业开始,一直到今年,五年多的时间萤火空间一直在埋头研发、打磨技术和产品,为什么愿意投入这么长的时间?
邵鹏:我们在做一个事业,我们的产品一定是有用的,而不是跟风,或者浅尝辄止。所以我们针对当时市场上产品的问题做了深入的研究,研究问题到底出在哪,以及我们的优势能不能解决这些问题。
光学方面,当时市面上产品最大的问题是视场角非常小,现在光波导技术也只做到 50 度,70 度的眼镜还不能大规模生产。因为之前 AR 消费产品的技术积累,我们判断,凭借我们对自由曲面的理解,有一定可能性能突破。没有十拿九稳,但我们觉得可能性是存在的。
当时我们也咨询了很多光学方面的老专家,他们统一的态度是不认可,「现在这个程度已经是极限了,想做个更大的视角,可能性不太高」。这反而鼓励了我们。如果说行业都觉得这是个十拿九稳的事,那它反而无法成为一个有效的竞争力。我们就还是觉得有可能,可以拼一拼。
当然,为了这个尝试,我们也付出了极大的代价,大概两年多的时间,才逐步把方案成型,开始做样片。后面做量产镜片,又花了很长时间。但也算我们运气好,这个东西确实被我们给突破了,也是付出有回报的一个例子。
硬件,尤其复杂的系统级硬件,难度是非常高的。任何一个方面的细节处理得不到位,有明显短板的话,都会让产品变得直接不可用,连及格线都达不到。
所以我们也花了很多时间,无论是电路方案、散热方案、产品的续航时间、用户的佩戴体验等等,我们打磨了两年多时间,不断优化,最终才有了现在的成果。
到今年 5 月,我们的产品可以正式批量交货了,对我们来说是非常巨大的 milestone。过去 5、6 年我们一直都是 stealth mode,下一阶段的目标,就是如何快速起量。
Founder Park:现在有了标准化的产品,公司进入了新的阶段,作为创始人、CTO,角色发生哪些转变?
邵鹏:这也是创业公司最吸引人的地方。在这个过程中,无论是技术的迭代,对公司的理解,还有市场销售等等,对个人能力的成长,都是非常大的机会和挑战。
我们的产品在 21 年底开始有样机之后,我和徐可(CEO)都会做一些 BD、销售方面的角色。因为我们毕竟不是一个纯上游的公司,有硬件有软件,我们是直接接触客户。至少在前期的一段时间里,我们通过直接接触客户,可以反哺产品迭代。把这条路跑通之后,我们后面可以通过渠道、销售,快速扩展整个商业化,但在前期只能创始人自己完成,虽然我们的合伙人都是技术背景,有一些 C 端经验,但 B 端完全不一样,我们也踩了很多坑,学习了很多。截止到今年 11 月份,我们在电网,以及职高校的 MR 实训课程方面取得了喜人的用户反馈,订单开始爆发,我们要抓住这次机遇。
Founder Park:2023 年,苹果 Vision Pro 的发布,被看做是对 MR 行业意义重大的一年。经历了这几年 MR 行业的跌宕起伏,你现在如何理解 MR 的未来?
邵鹏:本质上来说,我觉得创业本身就是在赌命。我从思科出来到现在已经有 8 年时间了,在创业的过程中,已经把人生最好的时间交给了这个事业。但它肯定不是像翻硬币一样(赌),也是需要公司核心的创始人对行业有一定的理解,至少会觉得在行业里成功的几率比较大,才会愿意把整个身家性命赌在上面。
科技行业不同时间段会有不同的风口,但对于我们创业者来说,我们永远不会去追赶风口,我们会有自己的判断,根据自己的判断去做积累。如果总是赶风口,一来门槛很低,如果你能赶得上,那说明谁都能赶,二是发挥不出自己的核心优势。
我们从 17 年就开始做这件事,尤其是企业级 MR,这个领域的公司非常少,能够长时间坚持下来,在行业里也沉淀了自己的一些理解。
就苹果 Vision Pro 而言,它对我们是利大于弊的。弊端,它是 MR 产品,是竞争对手,会吃掉我们未来的一些市场。
但之所以利大于弊,原因有两点。
第一,对市场的教育程度,重新引领起大家对于 MR 的期待和理解。就算 AR、VR 已经这么多年,还是有很多人分不清,有一部分客户群体,尤其企业、工业级,他们已经尝试过很多 AR 眼镜,但当他们体验到我们 MR 产品 的时候,他们才眼前一亮,知道现在技术已经发展到这个阶段了,产品真的可以用了!Vision Pro 推出之后,客户能看到很多宣传,就会理解现在技术已经成熟到可以进入生产生活。
第二,苹果的眼镜会带来一些新的应用场景,也能帮我们去拓展新的应用场景。
当然,严格意义上我们并不是直接的竞争对手,苹果是 video see through (VST) 视频透视技术,我们是 optical see through (OST) 光学透视技术。苹果的眼镜更适用于一些虚拟的场景,培训、影视内容等等,但一旦涉及到实操,操作训练,有实景的情况下,我们这种光学透视(OST)的眼镜,一定是体验更好的,不会导致眩晕等情况。
弥知科技
以项目养自研,创业的第一步是学会「造血」
弥知科技弥知科技成立于 2018 年,是一家深耕 AR 垂直领域的 AI 平台型公司,以自研 AI 框架为核心,实现了自动化 AR 算法产品的 AI 训练与开发。解决方案覆盖多个行业:电商、内容、社交、数据等。主打产品包括 AR 试穿试戴产品,解决线上购物的刚需痛点。
以下是 Founder Park 与弥知科技创始人 & CEO 张天夫的对话。
Founder Park:创业过程中,遇到的最大问题是什么?当时是怎么解决的?
张天夫:其实最大的问题还是技术和产品。因为能用钱解决的问题,都不太能算是问题,最难的就是你要完全去做一个全新的突破。我们最早在 web 和小程序上做 AR 的时候,还没有人这么做过,或者有尝试也都没做起来。
我们把技术的难题攻克了,也用了一些非常多我们自己的方式方法。但解决这个之后才是难的开始,就是怎么去做商业场景的应用,因为很多技术型的东西离最终商业化的产品的距离还是很远的。如何去把 gap 对齐是过去两三年里最常遇到的问题。
解决完落地之后,更难的事情出现了——在有限的时间内,客户对产品效果不满意。怎么去把坑解决,而不是避开,有些时候会用巧办法,但巧办法只能解决一时的问题,还是要从问题的根源出发去解决。
感觉创业就像马里奥冲刺一样,冲到某个阶段的时候,你不能掉下去,还得绞尽脑汁地向前冲,去面对更多的挑战。
Founder Park:电商在试穿环节的需求捕捉可能大家可能都会想到,但是在你看来,你们能胜出是因为你们能够更快地用技术把东西做出来,还是你们更擅长在更垂直的场景下,去定义新的产品?
张天夫:首先是把产品做出来,这还是非常有壁垒的事情。我们在 2019 年就把需求的痛点解决了,当时没有什么竞品,大公司也还没有参与进来。在 19、20、21 年还是做的比较开心的,因为当时是靠技术拿到订单的,甚至有些客户是咨询了 4、5 个渠道之后最终还是选择了我们。
我们当时做到了真正的稀缺性——要做这些东西只能找我们,别人都做不了。
竞品其实并不多,因为这个赛道的技术门槛还是很高的。主要的竞品还是大厂,只有大厂有这个技术实力。
Founder Park:从创业以来,有哪些想法和思考现在回看是被证伪了的?
张天夫:我们当时做了很多人脸跟踪的相关产品。在当时来看,一方面是技术的稀缺性,另外是确实有一定的技术门槛。可是这个技术门槛又不是特别的高,现在看来我们当时设想的一些需求其实并不是真正的刚需。
比如说眼镜试戴的场景,量产环节中真正成为瓶颈的是眼镜数字内容的建模成本比较高,反倒是之前认为的人脸建模的门槛却没那么高。
我们其实通过做项目验证了不少需求的真伪。一个项目起码保证能把前期的成本 cover,甚至还有不错的利润,如果这个项目没能做到这些,甚至其他品牌没有同类型的需求,那这个项目做完后就会被搁置。在开始做产品的第一天,我们就通过商业市场来验证哪些是真实需求,然后沿着真实需求继续往前走。
Founder Park:你们其实接了不少的项目,对于你们来说,现在主要是在做项目还是做自己的产品?这可能也是很多公司在选择上面临的问题,想知道你们是怎么思考这个问题的?
张天夫:其实我们之前是想成为产品型公司,而且一直在坚持做自己的产品。但是我们的融资实际上没有其他的公司顺利,所以我们从第一天开始就要自己造血,不然可能某一天就死掉了。现在有非常多的拿到融资的产品型公司,也是苦于造血的问题,最后能活下来多少其实很难说。
所以我们大部分是在造血,活下来,然后将造血产生的利润投入到产品中,把产品做起来。现在自身的产品也有非常多的用户,对于我们来说,项目和产品是并驾齐驱的。通过项目我们可以真实的第一手的需求和品牌痛点。
如果是闭门造车做产品,除非这个产品是经过反复的市场调研得出的结果,否则就很难精准定位到用户的痛点。我们在做项目的过程中,测试市场,获得最痛点的需求点,然后再把其融入到自己的产品中。所以我们产品的功能并不是特别多,可是每个功能都能瞄准用户的痛点。
Founder Park:AR 行业还是存在技术壁垒的,很多效果的实现需要技术达到一定的水平,我们需要在技术和场景落地之间找到一个甜蜜点,就需要找到非常好的场景正好是当下的技术能满足的。你们当时是如何选择第一个落地场景的呢?有没有一些成熟的方法论分享?
张天夫:我们主要看客户的需求在哪里。第一个客户是 Gucci,当时我们的产品还没有出来,是先签单才启动研发。这才有意思,不然投入了很大的研发去做产品,却不清楚客户是谁,也是没法很好进行场景落地的。
选择电商赛道,也是因为我们发现电商单品的退货率比较高,退货的商品没法二次销售,又不环保又不经济,所以想做点什么,就选择了试穿试戴这样的赛道。从眼镜开始做起,然后做了鞋子。
跟 Gucci 合作的好处就是它拥有很大的用户基数,我们可以通过它的用户来看市场的消费者对于我们产品的反应。第一个客户是大企业,对于我们这种初创企业,还是很重要的,这可能会决定我们产品的形态。
Founder Park:也就是说你们的逻辑其实不是先看好哪些品类,再找对应的客户?
张天夫:我们最早看好的其实是眼镜的品类,但是这个品类大家对于价格比较敏感,可能由于品类本身的利润率不高,然后内容生产成本就会比较受限制。而相比较眼镜,美瞳就很合适。内容生产成本很低,设计师的素材可以直接在我们的后台使用;产品上架后就可以 Once for all,不太需要去做维护和算法的升级就可以满足消费者的需求。
有一个原因是美瞳是没法在线下试戴,买了之后不合适,也没法退货,在购买之前试戴是消费者的硬需求。
能控制生产成本,并且在最终效果质量上最终达成某种平衡,这个是现阶段我们和大客户都比较看重的。
Founder Park:大模型和 AIGC 出现后,对于你们来说,会有哪些新的可能性?
张天夫:AR 要求实时呈现结果,并且用户试穿的数字内容跟现实保持一致。从这两点来看,暂时大模型不会有太大的影响。首先是大模型现在的计算没法实时给出结果,而且不管是 Stable Diffusion 还是 Midjourney 生成的内容都不太稳定,每次生成的都没法很好保持一致,这对于电商是致命的。
目前来说,大模型反倒提升了我们的内部效率。在给客户进行提案的时候,会使用一些工具输出图片。
但是,如果未来大模型能够解决自动化建模的问题,会让我们的数字内容生成的效率和成本都得到极大的推动,这也是我们很期待的。